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RECONNAISSANCE VOCALg POUR 
LES LARGES VOCABULAIRES DYNAMIOOES 



La presente invention se rapporte au domaine de la 
reconnaissance vocale. 

La presente invention se rapporte plus 
particuliferement au domaine des interfaces vocales. Elle 
presente 1'avantage d'etre utilisable independamment du 
contexte de 1* application vocale particuli&re : systeme de 
reconnaissance de la parole pour serveur tel^phonique, 
dictee vocale, syst&ne de commande et contrdle embarqu§, 
indexation d'enregistrements- 



Les logiciels commerciaux actuels de reconnaissance de 
la parole sont basSs sur 1' usage de rSseaux de Markov caches 
(HMM pour Hidden Markov Model en anglais) pour decrire le 
vocabulaire h reconnaltre, et sur un d^codage utilisant un 
algorithme de type Viterbi pour associer a chaque £nonc£ une £jrj 
phrase de ce vocabulaire. 

Les rSseaux markoviens en question utilisent le plus H 
souvent des 3tats a densite continue. 3> 

Le vocabulaire de 1 ' application , qu'il soit a ^ 
l'origine bas6 sur des grammaires ou sur des modeles de ^ 
langage stochastiques , est compile en un reseau d'etats p2 
fini, avec un phoneme de la langue utilisee a chaque HI 
transition du r€seau. Le remplacement de chacun de ces O 
phonemes par un reseau markovlen S14mentalre qui represents 
ce phoneme dans son contexte de coarticulation, produit 
finalement un grand rSseau markovien sur lequel le d£codage 
de Viterbi s' applique. Les reseaux 61ementaires eux-m§mes 
ont appris grSce h un corpus d'apprentissage et avec un 

algorithme d'apprentissage maintenant bien connu de type 
Baum-Welsh, par exemple. 
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Ces methodes aujourd'hui classiques sont decrites par 
exemple dans l'ouvrage de reference de Rabiner, et 1' usage 
de modeles de langage dans celui de F. Jelinek. 

Par souci de completude , nous a lions neanmoins decrire 
5 a nouveau de maniere simplified les differents composants 
d'un moteur de reconnaissance vocale actuel, dans un exemple 
particulier d' usage. 



10 



20 



Un signal de parole est conceptuellement une suite de 
phonemes continue ou interrompue par des pauses, des 
silences ou des bruits. Les proprietes acoustigues du signal 
de parole peuvent, au moins pour les voyelles, etre 
considerees comme stables sur des durees de l'ordre de 30 
ms. Un signal issu du telephone, echantillonn£ a 8 kHz, va 
15 done etre segments en trames de 256 echantillons (32 ms), 
avec un recouvrement de 50 % pour assurer une certaine 
continuity. L ' information phonetique est ensuite extraite de 
chacune de ces trames par le calcul, par exemple dans le cas 
d ' implementation decrit ici, des 8 premiers MFCCs (Mel 
Frequency Cepstral Coefficients, voir [Richard]), de 
l'energie de la trame, et des derivees premieres et secondes 
de ces 9 grandeurs. Chague trame est ainsi representee, 
tou jours dans cet exemple particulier, par un vecteur de 
dimension 2 7 appele vecteur acoustique. En raison des 
25 variations inter- et intra-locuteur , des conditions 
d'enregistrement, etc. dans les signaux de parole, un 
phoneme ne sera pas represents par un point dans cet espace, 
mais par un nuage de points, autour d'une certaine moyenne 
avec un certain etalement. La distribution de chaque nuage 
30 definit la densite de probability d' apparition du phoneme 
associe. Si cette extraction par MFCC est judicieuse, on 
doit obtenir dans cet espace un ensemble de classes 
relativement compactes et separees les unes des autres, 
chacune correspondant a un phoneme. 
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Apres cette phase d' extraction acoustique, le signal 
de parole est done d6crit par une suite de vecteurs 
acoustiques, et le travail de reconnaissance consiste & 
determiner quelle suite de phonemes est f de la fagon la plus 
5 probable, associSe a cette suite de vecteurs acoustiques* 

Conceptuellement done, un signal de parole est une 
suite de phondraes continue ou interrompue par des silences, 
des pauses ou du bruit. Le mot « zero » par exemple est 

10 constitue des phonemes [z], [e] , [r] , [o]. On pourrait 
imaginer un reseau de Markov gauche-droite h 4 etats, chaque 
6tat 6tant associe A un de ces phonemes, dans lequel on ne 
permettrait aucun saut au-dessus d'un 6tat. Avec un modele 
entrain^, on pourrait r6aliser grace a l'algorithme de 

15 Viterbi un « alignement » d'un nouvel enregistrement , e'est- 
&-dire determiner le phoneme associe a chacune des trames. 
Cependant a cause des phenomenes de coarticulation entre 
phonemes (modification des caracteristiques acoustiques d'un 
phoneme lors du changement de forme du conduit vocal entre 

20 deux sons stables), il est necessaire d'associer plusieurs 
etats k un meme phoneme, pour prendre en compte 1' influence 
du contexte. On obtient ainsi des 6tats contextuels 
d'entr^e, des etats dit « cibles », qui correspondent & la 
partie stable du phoneme, mais qui peuvent dependre elle- 

25 m§me des phenomenes de coarticulation r de telle sorte qu'il 
y a en general plusieurs cibles, et des §tats contextuels de 
sortie. Dans cet exemple particulier, on peut done par 
exemple utiliser des reseaux markoviens £lementaires en 
forme de papillons pour modeliser les phonemes el£mentaires 

30 de la langue. 

En reprenant 1' exemple precedent, on aurait par 
exemple pour le phoneme [e] un reseau tel qu'illustre Figure 
1. 

On aurait egalement par exemple pour le phoneme [z] un 
35 reseau tel qu'illustr§ Figure 2. 
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De meme, chacun des phonemes utilises pour decrire la 
langue en question est associe a ce type de reseau 
markovien, different dane sa forme mais presentant tou jours 
des entries et sorties contextuelles dependant des 
phenomenes de coarticulation. 

Ces diff brents reseaux, qui correspondent chacun a un 
phoneme de la langue r ont des densites de probability et 
des probability de transition qui sont determinees par 
apprentissage sur un corpus de phrases enregistrees, avec 
1' usage d'un algorithme de type Baum-Welsh pour l'obtention 
des differents parametres (voir Rabiner par exemple). 

Le vocabulaire & reconnaitre varie en fonction de 
1' application : ce peut etre un nom, ou un numero de 
telephone, ou des requetes plus compliquees, par exemple des 
phrases completes pour une application de dictee. II faut 
done specifier les mots a reconnaitre, leur enchainement , ou 
leur probability d'enchaxnement, la syntaxe des phrases si 
elle peut etre connue et decrite, pour utiliser cette 
connaissance supplementaire, simplifier les reseaux de 
Markov et obtenir de bonnes performances en temps de calcul 
et en taux de reconnaissance. 

C'est le role du modele de langage de representer 
cette connaissance. 

Dans 1' exemple a caractere d' illustration de l'etat de 
l'art dans ce domaine, nous utiliserons des modeles de 
langage bases sur des grammaires probabilistes, plutot que 
des modeles de langage stochastiques, comme ceux utilises 
par exemple dans les systemes de dictee. 

Une grammaire toute simple est celle constitute par la 
syntaxe article-nom-verbe, avec pour article « le », pour 
nom « chien » , et pour verbe « mange » ou « dort » . Le 
compilateur va transformer cette grammaire en un reseau de 
Markov, en mettant bout a bout les papillons des differents 
phonemes, en eliminant les branches inutiles, et ce pour 
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toutes les phrases compatibles avec la syntaxe. L'6tat 
initial est fixS par un papillon specifique reprSsentant le 
silence de dSbut de phase. II va etre relie a 1' entree 
« pause » du papillon du phoneme /l/. Seules les branches 
5 qui sont accessibles par transition & partir de cette entree 
sont conserves, jusqu'S. la sortie correspondant au phoneme 
/c/. Cette sortie et ensuite reliee it 1' entree du papillon 
du /0/ correspondant au /I/. Puis par transition seules les 
branches utiles dans ce papillon sont conserves, et on 

10 continue ainsi jusqu'a 6puisement des possibilites de la 
grammaire. Le reseau se termine n^cessairement sur un 
papillon mod€lisant le silence de fin de phrase. Des 
branches du reseau peuvent itre paralleles, si on a 
plusieurs possibilites de mots comme « mange » ou « dort », 

15 si on veut introduire une pause optionnelle entre deux mots, 
ou si plusieurs phonStisations sont possibles pour un m§me 
mot (par exemple « le » peut se prononcer [lo] ou [1<e] 
suivant la region d'origine du locuteur) . 

De plus a la fin de chaque sous-r^seau (un sous-r^seau 

20 correspondant par exemple a un mot), on introduit une 
transition « vide », c'est-^-dire avec une probability de 
transition egale k 1 , attachee a une « etiquette » , qui est 
une chaine de caracteres donnant le mot represents par ce 
sous-r§seau (elle sera utilisee lors de la reconnaissance). 

25 Le resultat de la compilation est un reseau complexe 

(d'autant plus que la grammaire est compliquSe), optimise 
pour la reconnaissance d'un certain type d'4nonc6. 

La construction du reseau markovien d'une application, 
dite compilation, comprend done trois phases representees 

30 Figure 3. 

Pour illustrer ces phases, nous allons prendre un 
nouvel exemple simple base sur une grammaire selon le format 
ABNF du W3C : 



35 



#ABNF 1.0 ISO-8859-1; 
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language fr; 
root $main; 

5 public $main = $BEGSIL (t§te | jambe) $ENDSIL; 

Cette grammaire permet simplement de d^crire le module 
de langage qui permet de reconnaitre le mot tete ou le mot 
jambe, de fagon isol6e, c'est-a-dire pr£c6d£s et suivis d'un 
10 silence (et non pas de trouver une occurrence de ces mots 
dans des phrases plus complexes ) . 

Lorsque cette grammaire est compil^e au niveau 
syntaxique, on obtient le r^seau de la Figure 4. 

15 

Les transitions marquees W sont des marqueurs de mots 
qui serviront seulement h retrouver aprSs d^codage, le mot 
ef fectivement prononce. Les transitions marquees L signalent 
un mot effectif de la langue qui devra £tre phon£tis£. 
20 Puis la compilation lexicale, qui traduit la 

phonetisation des mots et 1 ' introduction de cette phonetique 
dans le r£seau, produit le r6seau de la Figure 5. 

Sur ce graphe comme sur les autres, les num^ros des 
6tats n'ont pas d' importance. On retrouve encore les 
25 marqueurs de mots, qui sont situ§s dans le r6seau de fagon 
arbitraire tant qu'ils sont bien presents sur tous les 
parcours du graphe qui repr£sente le mot associe, et pas sur 
les autres* 

Et enfin, la compilation acoustique permet d'obtenir 
30 le reseau markovien final, par utilisation des reseaux 
acoustiques en lieu et place des phonemes associSs, 
application des conditions de raccordement contextuelles des 
modfeles, et optimisation du rSseau. Ce r6seau markovien est 
represents Figure 6. 
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Dans ce dernier graphe, les marqueurs de mots sont 
tou jours presents, et m&ne parfois dupliqu§s. • 

Ce dernier graphe est uniquement pr4sent6 pour montrer 
que sa complexity et le nombre d'etats qu'il comporte, sont 
5 beaucoup plus grands que pour le niveau lexical. La 
compilation acoustique est de loin la phase la plus longue, 
produisant le r6seau le plus gros. 

Une f ois le reseau markovien de 1 9 application 
10 construit comme dScrit ci-dessus, il est alors utilise par 
le moteur de reconnaissance pour la comprehension (d6codage) 
des phrases prononcfies par 1'utilisateur. 

Dans un premier temps , comme il a &t6 decrit plus 
haut, ce signal de parole est convert i grace a la phase 
15 d'extraction acoustique, en une suite de vecteurs 
acoustique s . 

II s'agit alors de determiner quel parcours dans le 
rSseau markovien de 1 'application , est le plus probablement 
associ£ a cette suite de vecteurs acoustiques, ou bien de 
20 decider que l'6nonc6 n'est pas une des phrases que 
1 ' application est construite pour reconnaitre. 

Ceci est effectue en utilisant l'algorithme de 
d^codage de Viterbi, par exemple. Le principe du d^codage 
est illustr£ Figure 7. 
25 Sur l'axe des abscisses du schema sont repr6sent6s, en 

temps discret r les diffgrents vecteurs acoustiques qui 
arrivent r£gulierement au moteur de reconnaissance (par 
exemple ici r toutes les 16 ms). 

En ordonnee, sont repr€sent6s les differents etats du 
30 reseau markovien de 1' application , ainsi qu'ils ont ete 
obtenus apres la phase de compilation dgcrite plus haut, et 
qui utilisait a la fois la structure en papillon des 
phondmes elementaire's de la langue, et la grammaire de 
1' application. 
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Ainsi, si l'on reprSsente tous les etats du rSseau sur 
1'axe vertical, seules certaines transitions entre ces Stats 
sont possibles, avec une certaine probability, et au depart, 
on est forcSment dans un des Stats associes au silence de 
depart, reprSsente en double cercle sur la figure. 

On calcule alors, k chaque nouvelle trame, et en 
considSrant toutes les transitions permises, le score du 
raeilleur chemin amenant h tout Stat E j . 

II y a alors un Slagage, c'est-&-dire que l'on ne 
retient pour les developpements associes aux prochaines 
trames, que les n raeilleurs candidats, ou, selon certaines 
variantes de 1 ' algorithme, que les Stats qui ont un score 
suf f isamment proche du score du meilleur parcours (i.e. 
celui qui au temps Ti, obtient le score le plus SlevS). 

A titre d'exemple, on a represents sur le schema le 
front a 1' instant t4, avec les scores des diffSrents 
candidats. Si, par exemple, on avait choisi de limiter le 
front ^ 3 etats, alors les hypotheses de dSveloppement du 
front representees en vert n'auraient pas StS explorSes. 

De la mSme maniere, si l'on avait dScide de ne 
conserver que les candidats ayant un score au moins egal h 
10% du score maximal, alors ces memes hypotheses n'auraient 
pas ete explorSes. 

En realite, on conserve gSneralement plusieurs 
centaines voire plusieurs milliers de candidats, selon la 
complexity de la grammaire. 

II faut remarquer que si la grammaire est complexe, il 
arrive frSquemment que seule une petite portion du rSseau 
markovien est ef f ectivement utilisSe dans le dScodage, le 
reste n'etant pas visits h cause de 1 'Slagage lui-meme, qui 
supprime les hypotheses tres peu probables. 

Lorsque toutes les trames de parole ont StS 
consommSes, on obtient alors, comme parcours le plus 
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probable , le chemin de plus haut score obtenu par 
l'algorithme pour lequel l'etat de sortie du rSseau est 
atteint. On remonte alors la suite des etats associes, du 
dernier au premier (backtracking en anglais), pour obtenir 
la phrase qui a vraisemblablement ete prononcee, en 
utilisant les fronts conserves aux diff brents instants. 
Ceci est illustre Figure 8. 

Plutot que de ne retenir que la suite d' Stats qui a 
obtenu le meilleur score, il est possible d'en conserver 
plusieurs, en prenant soin de ne prendre en consideration 
que les suites qui sont ef f ectivement associ^es a des 
enonces diff Srents (et non & des variantes d'un m§me 6nonce, 
avec par exemple des alignements temporels differents ou 
bien avec des variantes de prononciation dif ferentes) . 

Cette technique , dite de decodage Nbest, peut etre 
utilisee pour obtenir les n meilleurs candidats, avec pour 
chacun, un score associe, ce score etant d'autant plus elev£ 
que la phrase est plus probable. 

Vis-a-vis du decodage de Viterbi, le decodage Nbest 
implique de conserver, dans le cas ou plusieurs transitions 
aboutissent k un seul nceud, non pas le seul antecedent qui 
produit ce meilleur score, mais plusieurs antecedents et 
leur score associe. 

Done par exemple, s'll s'avere que le r£seau final est 
en fait un arbre, c'est-S-dire si un nceud peut avoir 
plusieurs successeurs, mais qu'un nceud n'a tou jours qu'un 
seul antecedent, alors la phrase eff ectivement prononcee 
peut etre simplement deduite a partir du dernier nceud 
atteint, et il est alors possible de faire du decodage Nbest 
sans surcout, juste en classant en fin de decodage les nceuds 
finaux par ordre de scores decroissant. 
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La reconnaissance vocale selon l'Stat de l'art que 
nous avons d€crit, utilise un rgseau de Markov cache qui est 
construit par compilation en trois phases : compilations 
syntaxique, lexicale puis acoustique, cette dernifere phase 
5 etant de loin la plus longue et produisant le r€seau le plus 
gros . 

Le r£seau obtenu est utilise par un algorithme de 
decodage de Viterbi avec elagage, c'est-a-dire que seules 
les solutions qui semblent les plus prometteuses sont 
10 d6velopp6es, et les autres abandonnSes. 

Par ce principe d'Slagage, chaque reconnaissance 
utilise une sous-partie du rfiseau differente. 



Nous avons vu que les moteurs de reconnaissance de 
15 l'art ant^rieur utilisent pour le d6codage un r§seau compile 
qui represente le vocabulaire actif f plus exactement 
1' ensemble des phrases que 1' application peut reconnaitre. 
Cette compilation est souvent un processus lent, meme sur 
des machines puissantes f et le r£seau compile obtenu peut 
20 etre assez encombrant en m^moire. 

Ceci est surtout pSnalisant pour les gros vocabulaires 
comme les listes de noms utilis^es en assistance vocale pour 
les annuaires (plusieurs centaines de milliers de noms, 
voire plusieurs millions pour certaines grandes villes), et 
25 qui, de plus, sont dynamiques : il faut pouvoir rapidement 
construire la liste associSe a une zone geographique dans 
une requete d'€largissement autour d r une ville donnee par 
exemple • 

Comme on l'a vu dans la presentation de l'etat de 
30 l'art, la reconnaissance vocale actuelle s'appuie sur un 
r§seau de Markov qui est construit par etapes successives, 
la derniere etape, la plus consommatrice en temps, 
produisant finalement un reseau directement utilisable dans 
l f algorithme de dScodage. 
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Le dScodage lui-meme est bas6 sur 1' algorithms de 
Viterbi avec elagage, c'est-&-dire que seules les hypotheses 
de plus haut score sont conserves dans le d^veloppement 
temporel de la recherche des meilleurs candidate. 

Lorsque le vocabulaire d'une application est grand , ou 
lorsque les grammaires sont complexes, done que le r6seau 
markovien de 1' application comprend un tr&s grand nombre 
d'etats, il d£coule de l'61agage que seule une petite partie 
du r€seau sera ef fectivement utilisee au cours d'un decodage 
donne, le reste 6tant repr£sentatif de parties du 
vocabulaire ou de la grammaire phon§tiquement trfes 
diffSrentes de ce qui est ef fectivement prononc£. 

Le principe de 1' invention est de construire 
dynamiquement f pour chaque decodage, la petite partie du 
rfiseau utile , plutSt que, comme dans l'6tat de l'art, 
construire d'abord le r£seau complet qui sera ensuite 
utilise tel quel dans tous les d^codages futurs. 

Plus precis£ment, le principe de 1' invention est de 
construire un arbre phon£tique representatif du vocabulaire 
de 1' application. Ce graphe correspond en quelque sorte au 
resultat des premieres stapes de compilation , jusqu'& la 
phase lexicale. 

La production de ce graphe est extremement rapide, 
meme pour de tr&s grands vocabulaires de plusieurs centaines 
de milliers de mots* 

Ce graphe est alors utilise au cours de chaque 
decodage, pour permettre de construire la partie du r^seau 
de Markov acoustique n^cessaire selon 1' elagage present. 

A cet effet, la presente invention concerne, dans son 
acception la plus gen^rale, un procede de reconnaissance 
vocale comportant une etape de representation d'un 
vocabulaire traduit en un modele de Markov, une 6tape de 
decodage par un algorithme de Viterbi et une 6tape d'Slagage 
des solutions explorees, caract^risd en ce que ledit 
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vocabulaire est d£crit sous forme d'un arbre composg d'arcs 
et de nceuds entre lesquels sont dSfinies des transcriptions 
decrivant les unites phonStiques utilises par le modele de 
langage de 1' application , et en ce que le rgseau de Markov 
5 n<§cessaire au d£codage de Viterbi est construit au moins en 
partie de mani&re dynamique grace h des sous-unit§s 
Mar Jcoviennes • 

Avantageusement, des mots diff brents du vocabulaire 
10 mais prSsentant des segments phon^tiques identiques en d6but 
de mot partageront, pour ces segments identiques, les m§mes 
branches de 1' arbre phon^tique. 

Selon un mode de mise en ceuvre, lesdites unites 
phon€tiques sont des phonemes* 
i5 Selon un autre mode de mise en ceuvre, lesdites unites 

phonStiques sont des phonemes en contexte. 

La prSsente invention se rapporte £galement a un 
systeme de reconnaissance vocale pour la mise en ceuvre du 
20 procede comprenant au moins une memoir e et des moyens de 
calcul. 

On coraprendra mieux 1' invention a l'aide de la 
description, faite ci-apr&s a titre purement explicatif, 
25 d'un mode de realisation de 1' invention, en reference aux 
figures annexSes : 

• la figure 1 illustre un exemple de r^seau de 
Markov correspondent a un phoneme ; 

la figure 2 illustre un autre exemple de rSseau de 
30 Markov correspondant h un phoneme ; 

• la figure 3 reprSsente la construction du rSseau 
markovien d'une application, dite compilation ; 

la figure 4 illustre un reseau obtenu lorsqu'une 
grammaire est compilSe au niveau syntaxique ; 
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la figure 5 illustre un reseau produit par la 
compilation lexicale, qui traduit la phonetisation des mots 
et 1' introduction de cette phonetique dans le reseau ; 

la figure 6 represente un autre exemple de reseau 
5 markovien ; 

• les figures 7 et 8 illustrent le principe du 
decodage ; 

la figure 9 illustre un exemple de graphe pour la 
mise en ceuvre du procede selon 1' invention ; 
10 * la figure 10 illustre la forme d'un arbre ; 

la figure 11 illustre un reseau markovien 
representant le phon&me [m] ; 

la figure 12 illustre un reseau markovien extrait 
de celui de la figure 11 selon les contraintes de contexte ; 
15 ' les f ig«res 13, 14, 15, 16, 17, 18, 20 et 21 

repr6sentent d'autres reseaux de Markov ; et 
• la figure 19 illustre un arbre. 



20 



25 



Dans un exemple particulier d' utilisation, 1' invention 
est particulierement adaptee a la reconnaissance vocale sur 
de tres grandes listes de mots ou de noms, par exemple pour 
des applications d'annuaires vocaux. 

La description de 1' invention sera done faite, de 
fagon non limitative, pour ce type d' application. 

L'acces a l'annuaire se fait pour l'utilisateur au 
travers d'une suite de guestions-reponses, dont un exemple 
est donn€ Figure 9. 



30 



35 



Dans cette sequence de questions, certaines vont 
occasionner des reponses possibles pour un vocabulaire 
constitue par une longue liste de noms : par exemple 
« Reconnaissance Nom » pour une ville importante, si la 
liste des abonnes a ete mise a jour. Cette liste doit 
d' autre part etre elargie dans le cas ou le dialogue mene a 
l'extension aux localites voisines, e'est-a-dire si la 
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recherche doit §tre 6tendue k des villes proches de la ville 
initiale de recherche. 

Cest principalement dans ces cas que la technologie 
actuelle de 1'Stat de 1'art est inutilisable, car la 
5 compilation du rSseau markovien qu'elle n^cessite est 
beaucoup trop lente. 

On voit Sgalement sur ces graphes 1' usage du d€codage 
Nbest, qui permet d'6num§rer les solutions possibles et de 
demander la validation par l'utilisateur . 
10 Ces listes sont construites par interrogation d'une 

base de donn^es, qui, pour chaque ville , donne les abonn£s 
tel^phoniques et la ou les phon£tisations possibles de ces 
noms . 

Nous aliens d£crire le f onctionnement d6taill£ de 
15 1' invention en utilisant une liste reduite de noms, afin de 
rendre clairs les d^veloppements, meme s'il s'avfere que 
I'int6r6t de 1' invention reside principalement dans son 
efficacit§ pour les grands vocabulaires. 

Prenons les noms suivants f avec leur phon^tisation : 

20 



Morand 


m . 


o 


. r . 


an 




Moraux 


m . 


o 


. r • 


au 




Mora z in 


m . 


o 


. r • 


a • z . 


in 


Morel 


m * 


o 


• r • 


ai . 1 


• (e+O) 


Morice 


m . 


o 


• r . 


i . s . 


(e+()) 


Morin 


m . 


o 


. r . 


in 





Dans 1' invention proposee, cette liste n'est done pas 
utilisee pour produire un reseau classique par compilation 
30 tel que d6crit dans 1'etat de l'art presents plus haut. Elle 
est au contraire transformee en un arbre phon^tique 
d£terministe. 

Pour les noms donn€s ci-dessus, cet arbre prendra la 
forme telle qu'illustr^e Figure 10. 
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II faut noter que la creation d'un tel graphe est 
extremement rapide, puisque sur une machine de calcul de 
Hewlett Packard de type Pentium 3 de 1GHz de frequence 
d'horloge, il faut par exemple 0,4 seconde pour former 
5 1'arbre d'une ville de 60 000 habitants, alors que la 
compilation standard complete de cette meme liste prend sur 
la meme machine environ 8 minutes, ce qui est incompatible 
avec le temps d'attente d'une personne utilisatrice du 
service. C'est en effet la phase de construction du reseau 
markovien final qui est la plus longue. 



10 



L'arbre precedent est utilise, selon la presente 
invention, dans le decodage de Viterbi preferentiellement de 
la maniere suivante (des variantes seront presentees plus 
15 loin) : 

Au dSmarrage du decodage, nous sommes dans l'6tat 
initial du graphe repreeente par la boite numerotee 0. 

Ce graphe montre que le premier phoneme est un [m], 
avec a gauche un silence de debut de mot, puisque c'est le 
premier etat, et k droite un unique phoneme [oj. 

Si par exemple, dans le jeu des riseaux markoviens 
elementaires utilises, selon l'etat de l'art, le phoneme [mj 
est reprSsente par le reseau de la Figure 11. 



20 



25 



30 



Alors, puisque a gauche du phoneme (m] on a seulement 
un silence, qui correspond h 1' entree ge_m_pau, et puisque a 
droite on a un seul phoneme [oj, qui correspond a la sortie 
qs__m_pom, alors seuls les Stats grises du roodele Slementaire 
seront ef fectivement accessibles et utiles. 

On composera done le reseau illustre Figure 12 extrait 
du precedent selon les contraintes de contexte. 



35 



On commencera le decodage de Viterbi avec elagage sur 
ce reseau. Lorsqu'une des hypotheses developpees dans le 
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front atteindra l'etat qs^jn^ pom, il faudra alors construire 
la suite du reseau dynamiguement pour poursuivre le 
d£codage • 

Pour cela on utilise l'arc phonetique pour trouver que 
5 le phoneme suivant est un [o], pris entre le phon&me [m] et 
le phoneme [ r ] • 

La situation est identique : 

Si par exemple le phoneme [o] est represents par le 
reseau markovien de la Figure 13, alors la partie utile, 
10 representee par les nceuds grists sur le dessin, sera du fait 
des contextes, conforme & la Figure 14. 

Et on obtiendra done, a ce stade du d€codage, le 
reseau dynamiquement construit de la Figure 15. 

15 Encore une fois f lorsqu'une des hypotheses du decodage 

de Viterbi atteindra l'etat final de ce reseau (note ici 
qs_o_r), on utilisera l'arbre phonetique pour const ater que 
le phoneme suivant est un [r]. 

A ce stade, ce reseau construit dynamiquement est bien 

20 la sous-partie du reseau complet qui aurait et<§ obtenu par 
une compilation traditionnelle. La seule difference est 
qu'il est construit h la demande, et non avant usage de 
maniere complete et statique. 

En d'autres termes, l'eiagage n'a pas encore d' impact 

25 sur le developperaent du r§seau qui reduirait ef f ectivement 
les portions de reseau d£veloppees. 

Nous allons voir maintenant ce point particulier dans 
notre exemple en poursuivant le decodage dans un contexte 
phonetique plus riche : 

30 En effet, le [r] est cette fois present dans un 

contexte phonetique plus riche, puisqu'on trouve a sa droite 
dans 1'arbre les phonemes [in], [i], [ai], [a], [au], [an]. 

Si le [r] est represents par le r6seau de la Figure 
16, alors la partie utile de ce contexte sera conforme a la 

35 Figure 17. 
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Et finalement, on arrivera & ce stade au reseau actif 
dynamiguement construit represente sur la Figure 18. 

Supposons done que, au cours du decodage de Viterbi 
s'appuyant sur ce reseau, une des hypotheses amene a l'etat 
5 de sortie qs_r_i (parce que 1 ' utilisateur prononce 
effectivement Morice) avec un score tellement eieve que les 
autres hypotheses, arrivant dans les autres Stats de sortie, 
soient elimin£es du front. 

Alors au cours du developpement dynamique suivant, 
10 seule la branche de l'arbre associee a cette hypothdse sera 
d6velopp€e, les autres etant abandonnSes. Tout se passe 
comme si le decodage se poursuivait sans les branches de 
l'arbre presentees en pointings sur la Figure 19. 

Ainsi cette fois, en consequence de l'eiagage, le 
15 reseau dynamiquement developp^ selon le principe de 
1' invention n'est plus 1' image du reseau complet obtenu par 
compilation selon l'etat de l'art : e'est un reseau plus 
petit . 

L'exemple developpe ici est simple par souci de 
20 clarte, mais dans des applications reelles, la partie du 
reseau effectivement dSvelopp^e est trds faible comparSe au 
reseau classique obtenu par compilation. 

On peut done dire que, selon l'etat de l'art, le 
reseau markovien correspondant au vocabulaire de 
25 1' application est construit une fois pour toutes, et que 
pour chaque decodage, en raison de l'eiagage mis en ceuvre au 
cours du decodage, seule une petite partie de ce reseau est 
effectivement utilis£e. 

Tandis que, selon le principe de 1' invention, le 
30 reseau complet n'est jamais construit, mais la partie du 
reseau effectivement nficessaire pour une reconnaissance 
donnee est dynamiquement construite au cours du decodage. 

Dans 1' implementation que nous avons presentee, la 
35 partie du reseau de Markov cache de 1 ' application qui est 
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n£cessaire pour un d£codage est construite dynamiquement, 
etape par etape, en decoupant les r6seaux markoviens 
61<§mentaires afin d'en extraire, selon les contextes 
d' apparition des phonfemes dans l'arbre de 1' application , la 
sous-partie utile. 

L'arbre phonetique de 1 9 application joue dans ce 
processus un role central pour determiner ces contextes, de 
meme qu'il permet d'effectuer un dScodage Nbest de maniere 
efficace et simple, du fait meme de sa structure d'arbre, 
par opposition It un graphe. 

II existe d'autres implementations de 1' invention 
propos£e, qui conserve le r61e central de cet arbre pour les 
raisons decrites. 

Nous allons d€crire une de ces alternatives, de facon 
non exclusive d'autres variantes. 

Supposons que nous ayons, pour une langue donn4e, 40 
r6seaux markoviens 616mentaires repr£sentant les phonemes 
utilises dans cette langue pour phonetiser les mots. Ces 
rgseaux, comme dans les quelques exemples donnas, ont des 
etats d' entree et de sortie pour reprSsenter les contextes 
phonetiques, selon des regies striates t par exemple un etat 
qs_x_i ne peut etre connects qu'a un £tat qe_y_i, x et y 
£tant deux r€seaux 61ementaires quelconques. 

On peut construire alors un rSseau global dans lequel 
les 40 sous-r§seaux sont mis en parallele, et de plus, 
toutes les sorties de chaque r£seau sont connectees par des 
transitions vides a toutes les entries de tous les reseaux 
qui lui sont compatibles selon les contextes phonetiques 
(c'est-a-dire qu'on a un r6seau markovien correspondant a 
toutes les suites de phon&mes possibles). 

II est alors possible, au lieu de developper 
dynamiquement comme precSdemment la partie utile du rSseau, 
d'utiliser 1'algorithrae de Viterbi dans lequel les Stats 
raanipul^s sont des paires constitutes d'un etat du r^seau 



0147036778 



©DM 



12:12:14 03-01-2006 



27 



10 



WO 2005/006308 PCT/FR2004/001799 

19 

complet form§ comma dgcrit ci-dessus et d'un nceud de l'arbre 
phonStique. 

Lorsqu'une hypothdse amene a un des etats de sortie 
d'un papillon, alors on vSrifie dans l'arbre phongtique 
qu'il y a bien des branches compatibles avec le contexte 
phonetique associg a cet 6tat. Dans le cas contraire, on 
abandonne le developpement de cette hypoth&se, comme si elle 
Stait victime d'un 61agage standard. 

Cette m£thode est fonctionnellement 6quivalente a la 
methode propos^e pr6c6demment, mais elle est plus couteuse 
en temps de calcul, puisque des hypotheses sont d6velopp6es 
m§me s'il s'avere ult6rieurement qu'elles conduisent a des 
contextes phon^tiques qui ne sont pas presents dans l'arbre 
de 1' application , et done qu'elles seront de toute fagon 
15 61iminees. 

Pour illustrer ce point, on peut reprendre l'exemple 
du phoneme [r] utilise dans notre exemple precedent. En 
raison de la structure particuliere de l'arbre de notre 
exemple, seuls les <§tats grises du modele complet, et les 
transitions entre ces etats, Staient finalement utiles. On 
se reportera a cet effet a la Figure 20. 

Selon la description de la variante dScrite ici, les 
autres transitions vers toutes les sorties non gris<§es 
seraient 6galement dSveloppees, mais seraient ensuite 
25 abandonn£es quand l'6tat de sortie serait atteint, 
puisqu'aucun des contextes associgs a ces etats n'est 
present dans l'arbre de cette application simple. 

II est possible de rem^dier h ce surplus de travail en 
ajoutant des transitions vides nouvelles dans chacun des 
r^seaux §l<§mentaires utilises, qui se comportent comme des 
portes, e'est-a-dire qui peuvent etre ouvertes ou fences. 

Dans le cas de l'exemple du reseau associS au phoneme 
[r] ci-dessus, on aurait par exemple le r€seau de la Figure 
21. 



20 



30 
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Sur ce mod&le, les transitions en pointings montre 
des transitions de type porte « ouverte », du fait du 
contexte d' apparition du [r], qui fait que tous les etats de 
sortie ne peuvent §tre atteints. 
5 Pour les etats de sortie actives, en grise sur le 

schema, les portes associees sont fermSes, et sont 
representees en traits pleins. 

Dans le front de developpement utilise par 
1'algorithme de decodage de Viterbi avec eiagage, il faut 

10 non seulement conserver, comme d£crit plus haut, une 
reference h. l'etat du r^seau associe a l'hypothese que cet 
element du front repr^sente, mais aussi conserver dans des 
variables appropri£es l'etat des portes (ouvertes ou 
ferm£es) en tenant compte des contextes droits d' apparition 

15 du phoneme dans 1'arbre. 

Par exemple, il est possible que dans un meme front, 
deux references differences au meme phoneme done au meme 
r§seau soient presentes, mais dans des contextes phonetiques 
differents et done avec des positionnements des portes 

20 differentes. 

Cette variante est ainsi fonctionnellement equivalente 
a 1 ' implementation standard presentee. Elle n^cessite 
nianmoins pour etre aussi efficace, de rajouter ces 
transitions vides de type porte et de les controler pour 

25 chaque Element du front au cours du decodage en fonction des 
contextes rencontres a droite de chaque phoneme dans 1'arbre 
phonetique. 

Nous avons vu que 1'arbre phonetique est central pour 
30 1' invention proposee, principalement pour permettre un 
decodage Nbest sans surcout. 

Bien sur, il est possible de stocker cet arbre de 
maniere plus compacte, par exeraple en stockant un graphe 
equivalent a l'arbre dont les parties droites communes a 
35 plusieurs branches sont f actorisees . 
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Par contre, cette forme compacte sera utilisee comme 
representation de l'arbre lui-meme de la maniere standard 
d6erite plus haut. 



L ' invention est decrite dans ce qui precede a titre 
d'exemple. II est entendu que l'homme du metier est a meme 
de realiser differentes variantes de 1' invention sans pour 
autant sortir du cadre du brevet. 
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RE VESICATIONS 

1 . Proc6d6 de reconnaissance vocale comportant une 
6tape de representation d'un vocabulaire traduit en un 
module de Markov, une £tape de d^codage par un algorithme de 
Viterbi et une etape d'61agage des solutions explorSes, 

caractSrise en ce que ledit vocabulaire est d^erit 
sous forme d'un arbre compost d'arcs et de nceuds entre 
lesquels sont d£finies des transcriptions d£crivant les 
unites phon^tiques utilis£es par le modele de langage de 
1' application, et en ce que le r£seau de Markov n<§cessaire 
au d6codage de Viterbi est construit au moins en partie de 
maniere dynamique grace a des sous-unites Markoviennes . 

2. Proc6d6 de reconnaissance vocale selon la 
revendication 1, caract&rise en ce que des mots differents 
du vocabulaire mais presentant des segments phon^tiques 
identiques en d£but de mot partageront, pour ces segments 
identiques, les memes branches de 1' arbre phon£tique. 

3. Procede de reconnaissance vocale selon la 
revendication 1 ou 2, caract£rise en ce que lesdites unites 
phon£tiques sont des phonemes* 

4. Proc6d£ de reconnaissance vocale selon la 
revendication 1 ou 2, caract^rise en ce que lesdites unites 
phon€tiques sont des phon&mes en contexte. 

5. Systeme de reconnaissance vocale pour la mise en 
oeuvre du procedS de reconnaissance vocale selon l'une 
quelcongue des revendications precedentes comprenant au 
moins une memoire et des moyens de calcul. 
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